大模型首次打破围棋思维黑盒！上海AILab发布新一代InternThinker,ai围棋布局理论

制播分离的好处就是引入了【市场竞争机制】，由之前的领导说了算改为市场说了算。这样更容易诞生好的节目，也更容易促进广播电视产业的发展。

允中发自凹非寺
量子位 | 公众号 QbitAI

围棋因其独特的复杂性和对人类智能的深刻体现，可作为衡量AI专业能力最具代表性的任务之一。

目前，AI虽然在棋力、效率、通用性等方面均取得显著成绩，但其具体推理过程仍处于“黑盒”之中，更无法用人类语言解释其思考过程和结果。

大模型具备良好的自然语言交互性，如何通过提升大模型的推理能力，实现围棋专业能力突破，是摆在科研人员面前的一道难题。

针对这个问题，上海人工智能实验室（上海AI Lab）全新发布了新一代书生·思客（InternThinker）。

基于创造性构建的“加速训练营”（InternBootcamp）以及一系列底层技术新进展，InternThinker专业推理能力大幅提升，成为我国首个既具备围棋专业水平，又能展示透明思维链的大模型。

即便面对李世石的“神之一手”（李世石在AlphaGO交战的第四盘78手下在L11，被称为“神之一手”），InternThinker也能给出正确应对策略。

思维链透明，自然语言点评“神之一手”

围棋作为一项具有四千多年历史的智力竞技项目，因其独特的复杂性和对人类智能的深刻体现，可作为衡量人工智能专业能力最具代表性的任务之一。

2016年AlphaGO一战成名，随后，AI在棋力、效率、通用性等方面均有显著提升，但其具体推理过程仍为“黑盒”，即便能输出胜率评估和落子概率，亦无法用人类语言解释“为什么某一步更好”。典型表现为：AI有时会下出违背人类直觉的“天外飞仙”棋步，事后被证明有效，但当时难以解释。

本次升级后的InternThinker，在围棋任务上不仅具备较强的专业水平，在大模型中率先实现打破思维“黑盒”，运用自然语言就对弈过程进行讲解。

用户在与InternThinker对弈的过程中，大模型化身为循循善诱的“教练”，它能全面地分析当前局面形势，对不同的落子点进行判断和对比，并给出明确的结果，让用户了解每一步棋背后的推理过程和决策依据，从而帮助用户更好地理解和学习围棋。

李世石在与AlphaGO交战的第四盘78手下在L11，被称为“神之一手”，直接扭转局势赢下一局。在研究人员对这一名局的复现中，InternThinker评价这步棋“相当刁钻……这步棋完美解决L11的威胁，重新确立中央控制权，为后续进攻埋下伏笔”。随后它给出了落子在L10的应对策略。

△InternThinker应对李世石“神之一手”

InternThinker还具备多样化的“语言”风格，极具“活人感”。比如，当用户下了一步好棋，它会加油鼓励：“这步棋相当有力，可以说是‘以攻代守’的好手。”

也会冒出毒舌锐评：“可以说是‘不是棋’的选择。”

△InternThinker多样化的语言风格

在棋力方面，InternThinker未来仍有提升空间。

新生代世界围棋冠军王星昊九段在与其对弈后评价道：

能解说思考过程的AI还是第一次见，感觉它分析得非常好；从布局看棋力可能在职业3-5段之间。

目前InternThinker已开启公测，所有用户均可以随时随地与之对弈，链接可在文末自取。

InternBootcamp：“体验”即学习，探索大模型推理能力提升新范式

InternThinker强大的推理能力及在围棋任务上的突破，得益于其创新的训练环境。

针对复杂的逻辑推理任务，如何准确地获得过程和结果反馈尤为关键，为此，研究人员搭建了大规模、标准化、可扩展的可交互验证环境InternBootcamp——这相当于为模型创造了一个“加速训练营”，使其可以高效习得专业技能，快速“成长”。

△InternBootCamp与大模型交互流程

基于代码智能体自动化构造，InternBootCamp包含超1000个验证环境，覆盖广泛的复杂逻辑推理任务，能有效帮助大模型领域研究者基于强化学习开展探索。

InternBootcamp可以批量化、规范化生成难度可控的推理任务，如奥赛级数学、科学对象理解与推理、算法编程、棋类游戏、智力谜题等，并与大模型进行交互和提供反馈。通过不同专业知识大规模构造和混合训练，使大模型跳出基于数据标注获取问题和答案的繁琐模式，同时避免传统奖励模型的欺骗，从而实现大模型推理能力提升的新范式。

除围棋外，在其他任务中InternThinker也有不俗表现。通过对多种任务的混合强化学习，InternThinker在包括数十个任务的测试集上的平均能力超过o3-mini、DeepSeek-R1以及Claude-3.7-Sonnet等国内外主流推理模型：

甚至在一些任务中性能表现远超当前其他推理大模型。

比如在以下两项任务中：

InternThinker的表现均优于o3-mini：

多任务混合强化学习：迎来“涌现时刻”

值得一提的是，研究人员观察到，在基于InternBootcamp的多任务混合训练过程中，出现了强化学习的“涌现时刻”：在单一任务中，无法成功推理得到奖励的模型，通过多个任务混合的强化学习，能够在训练过程中成功得到奖励，实现领域外专业任务的有效强化学习训练。

除了单独训练Tapa、Unicoder25任务外，研究人员额外选择了几十种任务进行混合训练。如下图所示：单一训练Tapa等任务并不能成功获得任务的正向反馈；而混合训练各类InternBootcamp任务达一定步数后，InternThinker融合学习了这些推理任务的思考方式，建立起了不同任务间的关联，从而成功获取了Tapa这类任务的正向反馈，实现对该任务的有效学习。

这意味着，随着InternBootcamp任务的数量增加、质量提升和难度加大，大模型有望迎来能力的“升华”，高效解决更多、更难、更具实用性的推理任务，在助力大模型推理能力泛化的同时，加速推动科学发现。

△Unicode25任务，其中浅色表示峰值、深色表示均值

△Tapa任务”涌现时刻”，其中浅色表示峰值、深色表示均值

通专融合底层技术突破

上述进展得益于近期上海AI Lab在通专融合路线的底层技术和架构方面的一系列创新突破。
从大模型发展历程来看，主要分化为专业性和通用泛化性两大路线。上海AI Lab率先提出通专融合技术路线（https://arxiv.org/abs/2407.08642），着力解决大模型高度专业化与通用泛化性相互制约的发展困境。这一路径的关键在于同步提升深度推理与专业泛化能力，使模型不仅在广泛的复杂任务上表现出色，还能在特定领域中达到专业水平。

上海AI Lab进一步提出通过相互依赖的基础模型层、融合协同层和探索进化层“三层”技术路径，可打造“通用泛化性”“高度专业性”“任务可持续性”三者兼得的通用人工智能。

△通专融合AGI实现路径

第一层为基础模型层，旨在构建通用泛化基础能力和高密度监督的专业能力。上海AI Lab团队近期提出全新的“记忆体+解码器”大模型架构Memory Decoder，并实现两个组成部分通过不同的预训练任务分别进行训练。区别于将所有信息全都编码进decoder的现有Transformer经典大模型架构，该架构实现了通专融合中“知识与推理可分离与自组合”的新一代大模型。其中，记忆体承担“专”的功能，负责对不同领域知识的可靠记忆；解码器承担“通”的功能，负责通用的语言组织和逻辑；记忆体可经过一次训练后应用于不同基模型。

第二层为融合协同层，通过多路线协同构建比肩人类专家的通专融合能力。团队近期的突破包括：

强化学习算法PRIME

后训练技术框架MoR

强化学习新范式OREAL

第三层为探索进化层，通过自主探索与反馈修正实现AI自我进化闭环。团队近期的突破包括：

测试时强化学习（TTRL）框架

分子逆合成新方法Retro-R1

据悉，未来上海AI Lab将系统推进通专融合技术路线的发展与探索，将通专融合的新能力、新进展持续通过InternBootcamp对外开放，加速以新一代通专融合基座模型的方式解决具体科学发现中的关键问题，同时牵引打造垂直领域示范应用案例，为科学发现与产业创新提供关键驱动力。

公测链接：https://internlm-chat.intern-ai.org.cn/
开源地址：https://github.com/InternLM/InternBootcamp

— 完 —

大模型首次打破围棋思维黑盒！上海AILab发布新一代InternThinker,ai围棋布局理论

曲墨封

相关推荐

捷豹路虎在华战略调整,捷豹路虎在华销量

美国黑人运动需要开辟新方向,美国黑人运动对美国的影响

访亲问友，书面语该写成“作客”还是“做客”，或者可以通用？,访亲问友的近义词

读者评论

痴冬书亦

君九恨

雨木公子

放开我让她来

热门标签

大模型首次打破围棋思维黑盒！上海AILab发布新一代InternThinker,ai围棋布局理论

曲墨封

相关推荐

捷豹路虎在华战略调整,捷豹路虎在华销量

美国黑人运动需要开辟新方向,美国黑人运动对美国的影响

访亲问友，书面语该写成“作客”还是“做客”，或者可以通用？,访亲问友的近义词

读者评论

痴冬书亦

君九恨

雨木公子

放开我让她来

订阅我们的科技前沿快讯

热门标签